大型变压器模型在许多任务中产生令人印象深刻的结果,但培训昂贵,甚至微调,如此慢,在解码中,他们的使用和研究变得无法触及。我们通过利用稀疏性来解决这个问题。我们研究变压器中的所有层的稀疏变体,并提出缩放变压器,一个缩放变压器模型,使用稀疏层的型号有效地缩放,并在我们扩展模型大小时比标准变压器更快地执行不匹配的解码。令人惊讶的是,稀疏层足以获得与具有相同数量的参数的标准变压器相同的困惑。我们还与现有的稀疏性融合,即使存储器有限,也能够对长期序列进行快速推断。这导致在长期摘要上对最先进的表现竞争。
translated by 谷歌翻译
我们介绍了一种通过使用高维随机向量计算来识别说话者的方法。它的优势是简单和速度。只有1.02k的活动参数和128分钟的通过训练数据,我们在1,251位扬声器的Voxceleb1数据集上获得了前1位和前5个分数,为31%和52%。这与CNN模型相反,CNN模型需要数百万个参数和数量级较高的计算复杂性,仅在相互信息中衡量的判别功率2 $ \ times $获得的判别能力。额外的92秒训练和广义学习矢量量化(GLVQ)将分数提高到48%和67%。训练有素的分类器在5.7毫秒内分类1秒。所有处理均在标准基于CPU的机器上进行。
translated by 谷歌翻译
通常通过过去的选择来告知机器学习中的评估,例如要使用哪些数据集或指标。该标准化可以使用排行榜对平等基础进行比较,但是随着出现更好的替代方案,评估选择变得不佳。这个问题在自然语言生成中尤其相关,该语言需要不断改善的数据集,指标和人类评估以提出确定性的主张。为了使遵循最佳模型评估实践更加容易,我们介绍了GEMV2。新版本的一代,评估和指标基准为数据集,模型和指标开发人员提供了模块化基础架构,以使彼此受益。GEMV2支持40种记录的数据集中51种语言。所有数据集的模型都可以在线评估,我们的交互式数据卡创建和渲染工具使得在Living Benchmark中添加新数据集变得更加容易。
translated by 谷歌翻译
通过将搜索任务框架作为解释跨度检测来绘制语义搜索问题,即给定文本作为查询短语的段,任务是在给定文档中识别其释放,与通常相同的建模设置用于提取问题的回答。在Turku释放语料库中的100,000手动提取芬兰语释义对,包括其原始文档上下文,我们发现我们的扫描跨度检测模型分别优于31.9pp和22.4pp的两个强烈的检索基线(词汇相似性和BERT句子嵌入)。匹配,达到22.3pp和12.9pp的令牌级F分数。这展示了在跨度检索而不是句子相似性方面建模任务的强大优点。此外,我们介绍了一种通过背部翻译创建人工释义数据的方法,适用于手动注释用于训练的跨度检测模型的剖析资源。
translated by 谷歌翻译